显卡比较:Tesla T4 与 RTX3090Ti 性能对比;深度学习方向效率对比; | 您所在的位置:网站首页 › nvidia t4 GPU 授权 › 显卡比较:Tesla T4 与 RTX3090Ti 性能对比;深度学习方向效率对比; |
部分数值由于厂家不同,略有出入
Nvidia Tesla T4
Nvidia RTX 3090Ti
该参数的作用
架构
Turing架构
Ampere架构
VERSUS网评分
52分
94分
综合评分
Tensor核心数
320个Tensor Core
656个Tensor Core
张量核支持混合精度计算,动态调整计算以加快吞吐量,同时保持精度。
CUDA数量
2560
10725
CUDA运算速度只和核心频率有关,而CUDA核心数量则决定了显卡的计算力的强弱。(比如,一项渲染任务,可以拆分为更多份交给不同的CUDA核心进行处理)
单精度浮点性能(FP32)
8.1FLOPS
代表显卡的浮点计算能力,越高算力越强。
半精度浮点数(FP16)
65TFLOPS
INT4浮点性能
260TFLOPS
浮点性能
7.76 TFLOPS
40 TFLOPS
浮点运算性能是衡量GPU处理器基本马力的方法
AI计算运行速度
320TFLOPS
显存带宽(存储器带宽)
320 GB/s
1008 GB/s
指显示芯片与显存之间的数据传输速率,它以字节/秒为单位。显存带宽是决定显卡性能和速度最重要的因素之一。
显存类型
GDDR6
GDDR6X
显存大小(VRAM)
16G
24G
是显卡的专用内存。决定batch_size的上限
内存总线宽度(显存位宽)
256bit
384bit
更宽的总线宽度代表在每个电脑运行周期能处理更多的数据。(代表GPU芯片每个时钟周期内能从GPU显卡中读取的数据大小,值越大,代表GPU芯片与显存之间的数据交换的速度越快。)
GPU时脉速度
1005MHz
1670MHz
核心频率
1582Mhz
1560MHz
只显示核心的工作频率,其工作频率在一定程度上可以反映出显示核心的性能。
超频频率(GPU TURBO)
1590MHz
1890MHz
当cpu运行低于其限制速度时,其会促进更高的时钟速度,从而获得更高的性能。
纹理速率
像素率
功率
75w
450w
1. GPU的计算能力的衡量指标:显存大小、CUDA数量、计算主频; 2. 描述GPU计算能力的指标:计算峰值;存储器带宽; 3. GPU的计算峰值在进行边缘计算的时候是非常重要的。 单精度计算能力的峰值 = 单核单周期计算次数 * 处理核个数 * 主频; FLOPS是每秒所执行的浮点运算次数,也就是GPU计算的基本单位;TFLOPS: 每秒一万亿次的浮点运算; GPU计算浮点数的理论峰值 = GPU芯片数量 * GPU Boost主频 * 核心数量 * 单个时钟周期内能处理的浮点计算次数; 4. 带宽:带宽由频率和位宽两个因素所决定;计算公式为:带宽=频率*位宽/8
个人总结: 1. 个人觉得,这么看下来,显卡就是看:能存多少;存的有多快;算的有多快;对应就是:显存大小;带宽;浮点速度; 2. 在不考虑显存上限前提下,带宽,浮点速度同时影响GPU的性能; 3. 从上图所示,T4的处理速度是3090Ti的1/5,但交换速度同时也更慢,在1/3左右。因此T4的整体深度学习速度,大概会在 3090Ti的0.16倍~0.06倍之间; (简单估算,若不合理,请指教);
参考:深度学习GPU显卡的浮点计算性能指标分析 - 百度文库 (baidu.com) |
CopyRight 2018-2019 实验室设备网 版权所有 |